iT邦幫忙

2025 iThome 鐵人賽

DAY 19
0

▋前言


光有逐字稿還不夠,要理解學生的「情緒」才是教育場景的核心之一。IEMOCAP 是一個專門為情緒辨識設計的語音資料集,今天我們就來看看它的結構。

▋內容


IEMOCAP 的特色

  1. 角色扮演與對話:由演員根據情境進行情緒化表演。

  2. 標註情緒:每段語音有情緒標籤,例如 happy、angry、sad、neutral。

  3. 多模態資料:同時包含語音、影像與文字逐字稿。

  4. 語音長度:多為 3–15 秒,適合做短片段情緒分類。

EDA 探勘重點

  1. 情緒分布

    • 約 10,000 段語音,分布不均。

    • neutral 資料最多,happy/sad 相對少。

  2. 語音特徵

    • 高低起伏明顯,適合訓練情緒分類模型。

    • 有些情緒(如 anger vs excitement)難以區分。

  3. 挑戰

    • 演員 vs 真實情緒:IEMOCAP 是「模擬情緒」,與真實課堂中的自然情緒會有落差。

    • 多模態整合:若只用語音,忽略了表情或手勢,可能會失去部分資訊。

結論
IEMOCAP 很適合作為情緒辨識的起始訓練資料,但要應用到真實教學情境,仍需進一步 domain adaptation。

▋下回預告


下一篇,我們將把 AMI、Switchboard、IEMOCAP 三個資料集的探勘結果統整起來,做個簡單的小結。

▋參考資料


IEMOCAP


上一篇
Day 18 Switchboard 語料庫介紹與特色
下一篇
Day 20 從資料到 AI 的整合流程
系列文
AI語音辨識系統:結合聲紋分析與情緒識別23
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言